Les chaines de Markov cachees : 

presentation 
et usage en analyse de sequences 

biologiques 

Sophie Schbath 

Unite Mathematique, Informatique & Genome 
INRA - Jouy-en-Josas 





O1O01.110O. . 

I mod 
ootiij 




Mathematique Informatique & Genomt 



Cours Pasteur d'lnformatique en Biologie, mars 2007. - p. 1 



Introduction 



Cours Pasteur d'lnformatique en Biologie, mars 2007. - p. 2 



Pourquoi un modele aleatoire ? 



L' utilisation de modeles probabilistes pour 1' analyse de sequences 
biologiques intervient dans de nombreux problemes : 
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Pourquoi un modele aleatoire ? 



L' utilisation de modeles probabilistes pour 1' analyse de sequences 
biologiques intervient dans de nombreux problemes : 

• est-ce qu'un evenement observe est significatif ou simplement 
le fruit du hasard ? 

• frequence ou presence d'un motif, 

• score d'alignement de sequences, 

• nombre de repetitions, etc. 
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Pourquoi un modele aleatoire ? 



L' utilisation de modeles probabilistes pour 1' analyse de sequences 
biologiques intervient dans de nombreux problemes : 

• est-ce qu'un evenement observe est significatif ou simplement 
le fruit du hasard ? 

• frequence ou presence d'un motif, 

• score d'alignement de sequences, 

• nombre de repetitions, etc. 

modeliser l'alternance d'etats dans une sequence et caracteriser 
cette structure le mieux possible sur une sequence observee : 

• codant/non codant (introns/exons/intergenique), 

• transferts horizontaux chez les bacteries, 

• regions variables/constantes des virus, etc. 
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Pourquoi un modele aleatoire ? 



L' utilisation de modeles probabilistes pour 1' analyse de sequences 
biologiques intervient dans de nombreux problemes : 

• est-ce qu'un evenement observe est significatif ou simplement 
le fruit du hasard ? 

• frequence ou presence d'un motif, 

• score d'alignement de sequences, 

• nombre de repetitions, etc. 

modeliser l'alternance d'etats dans une sequence et caracteriser 
cette structure le mieux possible sur une sequence observee : 

• codant/non codant (introns/exons/intergenique), 

• transferts horizontaux chez les bacteries, 

• regions variables/constantes des virus, etc. 

• 1' analyse de revolution des sequences au cours du temps, etc. 
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Modeles de sequences classiques 



Soit X-i , X 2 , . . . , X n une suite aleatoire de lettres X t e A. 
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Modeles de sequences classiques 



Soit Xi, X 2 , . . . , X n une suite aleatoire de lettres X { G A 

Modele de Bernoulli : MO 

Les Xi sont independantes et generees avec les probabilites 

fi(a) =F(X t = a), VaEi 

Peut s'ajuster sur la frequence observee des lettres d'une 
sequence. 
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Modeles de sequences classiques 



Soit Xi, X 2 , . . . , X n une suite aleatoire de lettres X { G A 

Modele de Bernoulli : MO 

Les Xi sont independantes et generees avec les probabilites 

fi(a) =F(X t = a), VaEi 

Peut s'ajuster sur la frequence observee des lettres d'une 
sequence. 

• Chaine de Markov d'ordre 1 : Ml 
Les Xi ne sont plus independantes mais generees selon 

fi{a) = P(Xi = a), VaeA 
7r(a,6) = P(X, = 6|X,_i = a), Va, b G .A 

Peut s'ajuster sur la frequence observee des 2-mots d'une 
sequence. 
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Modeles de sequences classiques (2) 



Chaine de Markov d'ordre m : Mm 

Les Xi dependent des m lettres precedentes et sont generees 

selon 

/i(ai---a m ) = P(Xl •• -X m = a x •• -a m ), Vctj e A 
7r(ai • • • a m , 6) = PpQ = 6 | X*_i • • • X*_i = a x • • • a m ), 

Peut s'ajuster sur la frequence observee des (m + l)-mots 
d'une sequence. 
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Modeles de sequences classiques (2) 



• Chaine de Markov d'ordre m : Mm 
Les Xi dependent des m lettres precedentes et sont generees 
selon 

/i(ai---a m ) = P(Xl •• -X m = a x •• -a m ), Va^- G A 
7r(ai • • • a m , 6) = PpQ = b \ X { _ x • • • X { _ x = a x • • • a m ), 

Peut s'ajuster sur la frequence observee des (m + l)-mots 
d'une sequence. 

Ces modeles sont bases sur une hypothese d'homogeneite de la 
sequence : les probabilites d' emission des lettres sont identiques 
tout du long de la sequence. 
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Assouplir I'hypothese d'homogeneite 



Modeles markoviens avec phase pour les sequences codantes 

par exemple, 7r(a, b) devient 7Ti(a, 6), 7r 2 (a, 6) ou 7r 3 (a, 6) selon 
que la lettre 6 est generee en position 1, 2 ou 3 d'un codon 
Ml 3. 
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Assouplir I'hypothese d'homogeneite 



Modeles markoviens avec phase pour les sequences codantes 

par exemple, 7r(a, b) devient 7Ti(a, 6), 7r 2 (a, 6) ou 7r 3 (a, 6) selon 
que la lettre 6 est generee en position 1, 2 ou 3 d'un codon 
Ml 3. 



Chaines de Markov heterogenes rarement utilisees pour une 
sequence (pb. d' estimation) : 

7Ti(a, b) = F(Xi = 6 | X^_i = a), Va, 6 G A 



Cours Pasteur d'lnformatique en Biologie, mars 2007. - p. 6 



Assouplir I'hypothese d'homogeneite 



Modeles markoviens avec phase pour les sequences codantes 

par exemple, 7r(a, b) devient 7Ti(a, 6), 7r 2 (a, 6) ou 7r 3 (a, 6) selon 
que la lettre 6 est generee en position 1, 2 ou 3 d'un codon 
Ml 3. 



Chaines de Markov heterogenes rarement utilisees pour une 
sequence (pb. d' estimation) : 

7Ti(a, b) = F(Xi = b | X^_i = a), Va, 6 G A 

Chaines de Markov cachees (CMC, HMM en anglais) : les 
probabilites d' emission a une position i dependent de l'etat de 
la position i (le nombre d'etats est petit). 
Exemples d'etats : isochores, introns/exons/intergeniques, 
helices/feuillets/boucles, etc. 
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Enjeux des CMC pour I'analyse des sequences 



Si la succession des etats est connue : il s'agira simplement 
d'estimer les parametres du modele (probabilites d' emission). 
On pourra ensuite caracteriser chacun des etats ou utiliser ce 
modele a des fins predictives sur une autre sequence. 
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Enjeux des CMC pour I'analyse des sequences 



Si la succession des etats est connue : il s'agira simplement 
d'estimer les parametres du modele (probabilites d' emission). 
On pourra ensuite caracteriser chacun des etats ou utiliser ce 
modele a des fins predictives sur une autre sequence. 

Si la segmentation n'est pas connue : il s'agira de determiner 
celle qui correspond "au mieux" a la sequence observee, voire 
d'estimer les parametres s'ils sont aussi inconnus. 
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Chaines de Markov cachees 



Cours Pasteur d'lnformatique en Biologie, mars 2007. - p. 8 



Presentation 



Un modele de CMC permet de modeliser une sequence par un 
ensemble fini de modeles qui s'alternent le long de la sequence 
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Presentation 



Un modele de CMC permet de modeliser une sequence par un 
ensemble fini de modeles qui s'alternent le long de la sequence 

II y a done deux processus sous-jacents : 

• Le processus non observable (cache) S1S2S3 • ■ • S n qui 
modelisera la suite des etats le long de la sequence. 

Ce processus est une chaine de Markov d'ordre 1. 

"Chaine de Markov Cachee". 
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Presentation 



Un modele de CMC permet de modeliser une sequence par un 
ensemble fini de modeles qui s'alternent le long de la sequence 

II y a done deux processus sous-jacents : 

• Le processus non observable (cache) S1S2S3 • ■ • S n qui 
modelisera la suite des etats le long de la sequence. 

Ce processus est une chaine de Markov d'ordre 1. 

"Chaine de Markov Cachee". 



Le processus observable XiX 2 X% • • • X n qui modelisera la 
succession des lettres. 

Le modele pour generer X { depend de l'etat S^ 
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Presentation (2) 



Dans le schema ci-dessous, on peut distinguer trois etats (rouge, 
vert, bleu) : les premieres lettres suivent le modele rouge, etc. les 
dernieres le modele vert. 

x attaggcagatac ga ggt gattactcgctagtct 

^3 
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Presentation (2) 



Dans le schema ci-dessous, on peut distinguer trois etats (rouge, 
vert, bleu) : les premieres lettres suivent le modele rouge, etc. les 
dernieres le modele vert. 

x attaggcagatac ga ggt gattactcgctagtct 

Les regions rouges, vertes et bleues sont caracterisees par des lois 
d' apparition des bases differentes (par ex. les regions rouges sont 
riches en g, etc.). 

L' alternance des couleurs (etats) est regie par une chaine de Markov 
d'ordre 1. 



Cours Pasteur d'lnformatique en Bioloqie, mars 2007. - p. 10 



Chaine de Markov d'ordre 1 : M1 



Une chaine de Markov est une suite de variables aleatoires 
dependantes 

S1S2S3 • • • S n • • • 
Ici Si peut prendre un nombre fini de valeurs S (par ex. {r, v, b}) 
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Chaine de Markov d'ordre 1 : M1 



Une chaine de Markov est une suite de variables aleatoires 
dependantes 

S1S2S3 • • • S n • • • 
Ici Si peut prendre un nombre fini de valeurs S (par ex. {r, v, b}) 

Une dependance d'ordre 1 signifie : 

¥(Si = b | 5i, 5 2j • • • , ft-i) = ¥{Si = b | #_i) ; 

la valeur de S^-i suffit pour connaitre avec quelle probabilite Si 
prend la valeur b. 
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Modele M1 : Matrice de transition 



Les Si sont done generees successivement selon les probabilites de 
transition : 

tt(u 1 v) = F(Si = v | Si-i = u) ; 

celles-ci sont rangees dans une matrice de transition II. 
Par exemple, S = {r, v, b} et 



u. 



n = 



6 0.4 



\ 



V 



0.5 0.5 
0.3 0.5 0.2 



7 



P^ = V | #_! = ) = 

P(5i = v | Si--i = r) = 0.4 etc. 
Propriete : les sommes en ligne de la matrice de transition font 1 . 
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Modele M1 : loi initiale 



Pour demarrer la chaine, il faut se donner une loi de probability 
pour la premiere couleur appelee loi initiate : 

Une chaine de Markov d'ordre 1 est done definie par une loi initiale 
et une matrice de transition. 
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Modele M1 : loi initiale 



Pour demarrer la chaine, il faut se donner une loi de probability 
pour la premiere couleur appelee loi initiate : 

Une chaine de Markov d'ordre 1 est done definie par une loi initiale 
et une matrice de transition. 

En pratique, la loi initiale est choisie comme etant la loi 
stationnaire //(•), e'est-a-dire verifiant jjl = /ill. 
Ceci garantit que les variables Si ont la meme loi ji : 

F(Si = u) = /j j (u) 1 Vi, \/u G S. 

La chaine est alors dite stationnaire. 
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Modele M1 : estimation de n 



Comment choisir les probabilites de transition tt(u, v) si Ton 
dispose d'une suite de couleurs observee Sis 2 • • • s n l 
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Modele M1 : estimation de n 



Comment choisir les probabilites de transition tt(u, v) si Ton 
dispose d'une suite de couleurs observee Sis 2 • • • s n l 

L' estimation par maximum de vraisemblance consiste a choisir 
les parametres tt(u, v) qui maximise la vraisemblance 

p(SiS 2 -"S n = 3^2 • • • s n 1 n) 

= /j j (s 1 )tt(s 1i s 2 ) x • • • x 7r(s n _i, s n ) 



\\N ohs (uv) 



ou N obs (uv) est le nombre d' occurrences de "uv" dans sis 2 • • • s n 
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Modele M1 : estimation de n 



Comment choisir les probabilites de transition tt(u, v) si Ton 
dispose d'une suite de couleurs observee Sis 2 • • • s n l 

L' estimation par maximum de vraisemblance consiste a choisir 
les parametres tt(u, v) qui maximise la vraisemblance 

p(SiS 2 -"S n = 3^2 • • • s n 1 n) 

= /j j (s 1 )tt(s 1i s 2 ) x • • • x 7r(s n _i, s n ) 



\\N ohs (uv) 



ou N obs (uv) est le nombre d' occurrences de "uv" dans sis 2 • • • s 

~ ( x N obs (uv) 
==> 7r(ix, i; J = 



N ohs (u+) 
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Modele M1 : ajustement sur les "di" 



Dans des chaines de Markov d'ordre 1 telles que ir(u, v) — N (™+) > 
on a en moyenne 

N(uv) ~ N obs (uv). 
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Modele M1 : ajustement sur les "di" 



Dans des chaines de Markov d'ordre 1 telles que tt(u, v) = jf^r] > 
on a en moyenne 

N(uv) ~ N obs (uv). 



De fagon generate, le modele Mm d'ordre m s'ajuste sur la 
composition en "mots" de taille 1, 2, . . ., (m + 1). 
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Parametres d'un modele CMC 



Processus cache S = (5i, S 2 , £3, . . . , £ n ), Si e S (Ml) 

/i e (ii) = P(Si = i/), Vw G <S 
7r e (w, v) = P(Si = i; I Si_i = i/), Via, uG5 



Cours Pasteur d'lnformatique en Biologie, mars 2007. - p. 16 



Parametres d'un modele CMC 



Processus cache S = (5i, S 2 , £3, . . . , £ n ), Si e S (Ml) 

/i e (ii) = P(Si = i/), Vw G <S 
7r e (w, v) = P(Si = i; I Si_i = i/), Vix, uG5 

Processus observe X = (Xi, X 2 , X 3 , • • • , X n ), Xi £ A 
Conditionnellement a S 9 le processus X peut suivre le modele 
MO ou Ml ou Mm ou un autre. Les modeles peuvent etre de 
differentes natures selon les etats. 
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Parametres d'un modele CMC 



• Processus cache S = (5i, S 2 , S3, . . . , S n ), Si e S (Ml) 

/i e (ii) = P(Si = i/), Vw G <S 
7r e (^, v) = P(S r i = i; I Si_i = i/), Vix, uG5 

• Processus observe X = (Xl, X 2 , X 3 , • • • , X n ), Xi £ A 
Conditionnellement a S 9 le processus X peut suivre le modele 
MO ou Ml ou Mm ou un autre. Les modeles peuvent etre de 
differentes natures selon les etats. 

On se placera ici dans le cas ou, condit. a S 9 X est markovien 
d'ordre m > dans tous les etats et on notera le modele global 
Ml-Mm. Chaque etat se caracterise done par une certaine 
composition en oligos de taille 1 a (m + 1). 
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Exemple du modele M1-M0 



Parametres pour les Xi : les Xi sont independants, 
conditionnellement a S, et generes selon une loi \i Q 

li {u, a) = F(Xi = a\ Si = u), a G A, u G S 



Schema de dependances : 



Si-i 



& 



Si+i 



Xi-i 



X 



X 



i+1 



Simulation : on simule d'abord S = (5i, S 2l S 3l . . . , S n ) selon 
une CM d'ordre 1, puis on simule les JQ independamment des 
autres : X suit la loi d' emission de l'etat s,-. 
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Exemple du modele M1-M1 



Parametres pour les Xi : 

les Xi forment une chaine de Markov stationnaire d'ordre 1, 
conditionnellement a S 9 de loi initiale \i Q 

ji {u, a) = P(Xi = a\S\= u), a G A, u G S 



et de matrice de transition 



7r (u, a, b) = F(Xi = b | X^_i = a, Si = u), a, b G ^4, u G S 



Schema de dependances : 



Si-i 



iDi 



-► ^i+1 



^i-1 



Xi 



X 



i+1 
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Representation d'un modele de CMC 



On represente classiquement 1' architecture d'un modele de CMC 
par un graphe dont les noeuds designent les etats et les aretes les 
transitions autorisees entre etats. 
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Representation d'un modele de CMC 



On represente classiquement 1' architecture d'un modele de CMC 
par un graphe dont les noeuds designent les etats et les aretes les 
transitions autorisees entre etats. 

Par exemple, le graphe associe au modele Ml -MO suivant 



IL = 



/ 0.6 0.4 \ 

0.5 
\ 0.3 



est 



0.5 
0.5 0.2 



[*o = 



( 0.2 0.2 0.3 0.3 \ 
0.1 0.3 0.4 0.2 



/ 



V 



0.3 0.2 0.4 0.1 




/ 
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Estimation / Segmentation 



II y a deux ecoles. 

• L' approche supervisee consiste 

• a estimer les parametres du modele sur des sequences deja 
segmentees 

= maximum de vraisemblance sachant (X, S). 
— ► implique de connaitre la signification des etats. 

• puis a segmenter la sequence d'interet avec ces parametres. 
= algorithme de Viterbi, ou algorithme 
"forward-backward". 

L' approche non supervisee consiste a iterer les deux etapes 
d' estimation/segmentation directement sur la sequence 
= algorithme EM. 
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Estimation a segmentation connue 



"apprentissage supervise" 



Si la segmentation S est connue, alors la vraisemblance des donnees 
est simple et on peut la maximiser analytiquement : 
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Estimation a segmentation connue 



"apprentissage supervise" 



Si la segmentation S est connue, alors la vraisemblance des donnees 
est simple et on peut la maximiser analytiquement : 



F(X \9,S) = fi e (S 1 )7r e (S u S 2 ) . . . 7r e (5 n _i, S n ) 

X /i (oi, Xi) . . . fl {Sni X n ) 
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Estimation a segmentation connue 



"apprentissage supervise" 



Si la segmentation S est connue, alors la vraisemblance des donnees 
est simple et on peut la maximiser analytiquement : 



F(X \9,S) = fi e (S 1 )7r e (S u S 2 ) . . . 7r e (5 n _i, S n ) 

X /i (oi, Xi) . . . tl \Sm X n ) 

= IMeiSJ f[ ire(%v) N<MV) * f[ J[ /!,(«, a) N ™ 

u,v=l u=l a^A 

ou N(uv) est le nombre d'etats u suivis de l'etat v 9 et iV(ix, a) est le 
nombre de lettres a dans l'etat u. 
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Estimation a segmentation connue (2) 



Pour maximiser la vraisemblance, on annule simultanement les 
derivees partielles par rapport aux 7r e (u, v) et /x (ix, a) et on obtient 
les estimateurs naturels : 



AT(ia, a) 



fi (u,a) = 



JV(u) 
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Segmentation a parametres connus 



C'est typiquement le cas quand on estime les parametres sur un jeu 
de test deja segmente (cf. paragraphe precedent), et que Ton veut 
segmenter une nouvelle sequence en gardant ces valeurs de 
parametres 6. 
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Segmentation a parametres connus 



C'est typiquement le cas quand on estime les parametres sur un jeu 
de test deja segmente (cf. paragraphe precedent), et que Ton veut 
segmenter une nouvelle sequence en gardant ces valeurs de 
parametres 6. 

Etant donne X = (Xl, X 2 , X 3 , . . . , X n ) et 9 on cherche la suite 
d'etats (5*, 53, • • • , s n ) la plus probable, c'est-a-dire celle qui 
maximise 

P(Si = si, . . . , S n = s n X,6) 
ou encore (formule de Bayes) 

P(Xi, . . . , X ni Si = si, . . . , S n = s n I 6) 

Algorithme de Viterbi. 
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Algorithme de Viterbi 



Soit P* = max P(Xi, . . . , X n , Si = si, . . . , S n = s n | 0). 

Si ^...■,s n 



P* = max max P(Xi, . . . , X n , S\ = Si, . . . , 5 n -i = s n _i, $n = ^ | 0) 



V Sl,...,S n _l 



Z n (y) 



*/ 



s* = argmaxZ n (t>) 



Recurrence pour calculer Zi{v) : 



Z x {v) = F(X 1 ,S 1 =v) = f jL e {v)iio(v,X 1 ) 
Zi(y) = max Zi_ x {u)i{ e {u,v) \[i {v,Xi) 

s\_ x = argmax(Z i _i(w)7r e (w,5*)) 



it 
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Alternative : algorithme Forward-Backward 



Plutot que de calculer la suite d'etats "optimale" (5*, s^ . . . , s n ) 9 
V algorithme Forward-Backward permet de calculer les probabilites 
de se trouver dans l'etat u a chaque position i 9 sachant (X, 6) : 

F(Si = u\X = x,Q), i = 1, . . . , n, u £ S. 
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Estimation a segmentation inconnue 



"apprentissage non supervise" 

Si la segmentation S n'est pas connue, la vraisemblance F(X \ 6) 
n'est pas manipulable. Pour la maximiser, on utilise des 

algorithmes iteratifs qui permettent d'approcher Testimateur 9 du 
maximum de vraisemblance. 
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Estimation a segmentation inconnue 



"apprentissage non supervise" 

Si la segmentation S n'est pas connue, la vraisemblance F(X \ 6) 
n'est pas manipulable. Pour la maximiser, on utilise des 

algorithmes iteratifs qui permettent d'approcher l'estimateur 9 du 
maximum de vraisemblance. 

L'algorithme EM {Expectation-Maximization) est le plus populaire. 
Cle : a chaque etape, la vraisemblance croit. 

point de depart 0(°) 
• iteration k alterne une etape E et une etape M 

critere d' arret : 

logP(X = x | 0(* +1 )) - logP(X = x | 0W)\ < e ou k > M 
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Estimation a segmentation inconnue 



"apprentissage non supervise" 

Si la segmentation S n'est pas connue, la vraisemblance F(X \ 6) 
n'est pas manipulable. Pour la maximiser, on utilise des 

algorithmes iteratifs qui permettent d'approcher l'estimateur 9 du 
maximum de vraisemblance. 

L'algorithme EM {Expectation-Maximization) est le plus populaire. 
Cle : a chaque etape, la vraisemblance croit. 

point de depart 0(°) 
• iteration k alterne une etape E et une etape M 

critere d' arret : 

logP(X = x | 0(* +1 )) - logP(X = x | 0W)\ < £ ou k > M 

Attention : pb. des maxima locaux =^> plusieurs points de depart. 
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Algorithme EM 



Une iteration de 1' algorithme : 
• Etape E : on calcule P(S^ = u\X = x, 0^) 9 i = 1, . . . , n, 



u G S (algorithme Forward-Backward) 

Etape M : on calcule 6^ +1 ) en utilisant la segmentation obtenue 

e l ' J EiP(^ = «l^ = «^ (fc) ) 

(fe+1) _ £,!{*, = a}P(£ = u|X = s : 




£.p(^ = M |x = £,#«) 
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Application a I'analyse de sequences 
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Recherche de regions homogenes 



On se donne un nombre q d'etats caches a priori (peu de 
resultats encore performants pour estimer ce nombre) 

On se donne les ordres des modeles markoviens sur les lettres, 
ou m. 

On applique EM pour estimer les parametres et calculer les 
probabilites des etats caches en chaque site i de la sequence. 
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Recherche de regions homogenes (2) 
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Recherche de regions homogenes (3) 
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Recherche de regions homogenes (3) 



B. subtilis 
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Recherche de regions homogenes (3) 
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Recherche de regions homogenes (3) 



B. subtilis 
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etat vert : fortement exprime (enzyme de la glycolyse 4ieme ligne) 
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Recherche de regions homogenes (3) 
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etat noir : a+t-riche (transfert + intergenique) 
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Recherche de regions homogenes (3) 



B. subtilis 
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noir: a+t-riche (transfert + intergenique), vert: fortement exprime (enzyme de la glycolyse 4ieme 
ligne), cyan: cds+, magenta: cds-, rouge: cds- hydrophobe. La grande region en noir sur la 3ieme 
ligne est entouree d'une repetition (opBA=opuCA) 
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Recherche de regions homogenes (4) 



Escherichia coli K12 
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Detection de genes 



De nombreux "detecteurs de genes". 

Principe de base : alternance de codant/intergenique (procaryotes) 
ou intergenique/exons/introns (eucaryotes), prise en compte de la 
phase pour le codant. 
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Detection de genes 



De nombreux "detecteurs de genes". 

Principe de base : alternance de codant/intergenique (procaryotes) 
ou intergenique/exons/introns (eucaryotes), prise en compte de la 
phase pour le codant. 




Complexifications : codons start/stop, exons 
initial/centraux/terminal, etc. 
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Detection de genes (2) 




forward strand (+) 

(Genscan) 
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Detection de genes (2) 



chevauchements 
pos 1/ pos 3 pos 1/ pos 2 



site de fixation du ribosome 



stop sur le brin (-) (chevauchement) 



SHOW 



type de 
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\_y~v J start 
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35-1 



Detection de genes (3) 



Petits genes et departs de traduction 
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Modeles semi-Markov caches 



L' inconvenient dans une CMC est que le temps de sejour est 
necessairement distribue selon une loi geometrique : 



t-i 



P(temps t dans l'etat u) = f 7t e (u, u)\ (l — ir e (u, u)) . 

Les modeles semi-markovien (cache) permettent d'imposer une 
loi particuliere (et adaptee au pb. biologique) pour le temps de 
sejour dans chaque etat. 
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Exemple : longueurs d'exons/introns 



T3 



O 0.001 



Histogram 
Gamma distribution 
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Length (nt) 
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0.012 



Histogram 

Exponential distribution 
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Length (nt) 



(GeneMark.hmm, Genscan) 



Cours Pasteur d'lnformatique en Biologie, mars 2007. - p. 38 



